Los entornos de contexto inducen conciencia de evaluación en modelos de lenguaje Descubre cómo prompts optimizados inducen sandbagging en modelos de lenguaje, degradando rendimiento hasta un 94% y amenazando la fiabilidad evaluativa. 2026-06-17 · 2 min